AI와 ML

#type/study #context/academic #theme/ai #status/completed

AI, ML, DL의 정의

정의

AI(Artificial Intelligence)

컴퓨터 시스템이 스스로 특정 작업·행동을 수행할 수 있는 능력
주어진 환경/데이터를 인지,학습,추론을 통해 목표 달성을 하도록 예측,행동 선택,계획하는 시스템

ML(Machine Learning)

명시적 명령 없이 알고리즘·통계 모델로 학습하는 능력
AI 범주 내에서 데이터로부터 학습하여 목적을 달성하는 접근 방법론
ex) 생성형 AI, 언어 모델, 이미지 분류 모델, 추천 시스템

DL(Deep Learning)

ML 범주 내에서 신경망(Neural Network) 함수를 사용한 학습 방법론

AI - ML(ML이 아닌 AI시스템)의 예

규칙 기반 시스템
휴리스틱 기반 (최적화)알고리즘

데이터와 학습의 이해

데이터 구성요소(Feature/Label)

데이터가 왜 중요한가?

머신러닝은 규칙을 직접 코딩x -> 데이터에서 규칙을 학습
데이터(Feature, Label)의 분포와 관계가 머신러닝의 학습 결과를 결정

Feature(피처, 특성)

모델이 예측에 사용하는 입력정보
예측, 판단의 근거/단서

Label(라벨, 목표값)

모델이 예측하려는 정답
학습의 목표값

ML 실생활 예시

일단 보류

단일 피쳐 기반 학습

1D 피쳐 기반 학습

1D 피쳐 기반 학습(단일 피쳐 학습)는 무엇인가?

1D = 1차원
Feature가 하나일 때 머신러닝이 학습하는 가장 단순한 형태

단일 피쳐 기반 학습

3-1. 1D 피쳐 기반 학습

1D 피쳐 기반 학습(단일 피쳐 학습)이란?
- 1D = 1차원
- Feature가 하나일 때 머신러닝이 학습하는 가장 단순한 형태
- 수식: $I n c o m e_{i} = f^{*} (Y e a r s o f E d u c a t i o n_{i}) + ϵ_{i}$
- 데이터셋 $D$ : 30명의 Years of Education (피쳐)와 Income (라벨) 쌍 ( $D = {(Y e a r s o f E d u c a t i o n_{i}, I n c o m e_{i})}_{i = 1}^{30}$ )
- 미지의 함수 ( $f^{*}$ ): Feature와 Label 사이의 실제 평균 관계로, 직접 관측할 수는 없으며 오차가 포함된 데이터(점)만 관측 가능함
- 측정오차 ( $ϵ$ ): 측정 기기의 한계나 환경적 요인 등으로 발생하며 데이터에 주로 섞여 있음 (데이터 = 참 함수 + 오차)
피쳐와 라벨의 관계를 잘 나타낸 함수 $f$ 는 무엇일까?
- 데이터를 설명하는 여러 함수 후보가 존재
- 어떤 함수가 가장 잘 맞는지 학습해야 함

3-2. 모델과 가설 공간

학습 (Learning)
- "입력(Feature) $\to$ 출력(Label)" 관계를 찾는 과정
- 평균 관계를 하나의 함수로 표현하지만, 관계를 표현할 수 있는 함수는 무수히 많음
가설 공간 (Hypothesis Space)
- 관계를 표현할 수 있는 모든 후보 함수들의 모음
- 피쳐 공간과 라벨 공간 위에서 정의된 함수들의 집합 $F$ (예: 선형함수 가설공간, 비선형함수 가설공간)
모델 (Model)
- 가설공간 $F$ 에 속한 특정 함수 $f$

3-3. 학습이란

학습의 정의
- 주어진 데이터에서 정답을 가장 잘 맞출 수 있도록 모델의 규칙을 조금씩 조정해가는 과정
- 데이터 $D \to$ 가설공간 $F \to$ 선택된 모델 $f$
학습에 필요한 3가지
1. 데이터 (Data): 학습할 예시들 (입력과 정답 쌍으로 된 정답 모음)
2. 가설 공간 (Hypothesis Space): 선택할 수 있는 모든 후보 함수들의 집합 ("이 중에서 가장 좋은 함수를 찾아야 해")
3. 선택 기준 (손실 함수): 어떤 함수가 더 좋은지 판단하는 척도 (예측값과 실제값의 차이를 측정)
학습 과정
1. 가설공간에서 하나의 함수를 선택
2. 그 함수로 데이터의 모든 예시를 예측
3. 손실함수로 틀린 정도 계산
4. 더 적게 틀리도록 함수의 파라미터 조정
5. 반복하여 최적의 모델 완성

복수 피쳐 기반 학습

4-1. 2D 피쳐 기반 학습

수식: $I n c o m e = f^{*} (Y e a r s o f E d u c a t i o n, S e n i o r i t y) + ϵ$
파란색 Surface(미지의 참 함수 $f^{*}$ ): 입력과 출력을 이어주는 숨겨진 진짜 함수로 관측 불가능함
빨간색 점들(데이터): 실제 데이터로 관측 가능함

4-2. 일반적 용어 정리 및 모델 가정

수식 일반화: $I n c o m e = f^{*} (Y e a r s o f E d u c a t i o n, S e n i o r i t y, . . .) + ϵ \to Y = f^{*} (X) + ϵ$
$Y$ : 우리가 예측하려는 라벨(반응/목표) 변수
$X_{1}$ , $X_{2}$ , $X_{i}$ : 각각 첫번째, 두번째, $i$ 번째 피쳐(입력/예측) 변수
$X$ : 일반적인 $p$ 차원 피쳐(총 $p$ 개의 피쳐) 벡터 ( $X \in R^{p}$ )
$f^{*}$ : 모델 (함수형). $f^{*} : R^{p} \to R$
$ϵ$ : 측정오차. 피쳐 $X$ 와 독립이며 기댓값 $E [ϵ] = 0$ 으로 가정함

4-3. 왜 $f (\cdot)$ 를 학습하는가?

예측: 잘 학습된 $f$ 가 있으면, 새로운 입력 $X = x$ 에서 반응/목표 $Y$ 를 예측할 수 있음
중요 특성 파악: 피쳐들 $X$ 중 어떤 특성이 $Y$ 를 설명하는 데 중요하고, 어떤 것은 덜 중요(무관)한지 파악 가능 (예: 소득 예측 시 근속 연수와 교육 연수는 큰 영향을 주지만, 혼인 여부는 거의 영향이 없을 것임)
해석 가능성: $f$ 의 복잡도에 따라 각 구성요소 $X_{i}$ 가 $Y$ 에 어떻게 영향을 미치는지(증가/감소 방향, 민감도 등) 이해할 수 있음

AI, ML, DL의 정의

정의

AI(Artificial Intelligence)

ML(Machine Learning)

DL(Deep Learning)

AI - ML(ML이 아닌 AI시스템)의 예

데이터와 학습의 이해

데이터 구성요소(Feature/Label)

데이터가 왜 중요한가?

Feature(피처, 특성)

Label(라벨, 목표값)

ML 실생활 예시

단일 피쳐 기반 학습

1D 피쳐 기반 학습

1D 피쳐 기반 학습(단일 피쳐 학습)는 무엇인가?

단일 피쳐 기반 학습

3-1. 1D 피쳐 기반 학습

3-2. 모델과 가설 공간

3-3. 학습이란

복수 피쳐 기반 학습

4-1. 2D 피쳐 기반 학습

4-2. 일반적 용어 정리 및 모델 가정

4-3. 왜 f(⋅)를 학습하는가?

4-3. 왜 $f (\cdot)$ 를 학습하는가?